热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

企业数据应用挑战及元数据管理的重要性

本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了第六篇:元数据管理之“灵魂”三问相关的知识,希望对你有一定的参考价值。


元数据管理作为企业数据治理的基础工作,贯穿数据产生、加工和使用的全生命周期,是有效管理和使用数据的基础和前提,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。本文从企业数据应用挑战出发,针对元数据管理发起“灵魂”三问——元数据是什么,有什么用,又该怎么管?

01 企业数据应用挑战

企业在日常经营管理过程中会产生大量的数据,为数据驱动的企业经营管理决策奠定了良好基础,但真正在数据应用时却往往会陷入数据沼泽中,出现数据找不到、读不懂、不可信等问题。

数据找不到。数据分散在不同IT系统和线下文档中,因为缺乏高效的数据搜索工具,业务不知道需要的数据在哪里。

数据读不懂。面对复杂的数据存储结构,因为缺乏对每个数据表、字段的业务含义注释,业务读不懂IT系统中的数据。

数据不可信。数据从产生到消费链路复杂,因为缺乏对数据的全链路追踪,不知道数据来自哪里,都经过了哪些加工,业务无法追溯数据问题。

以上问题主要原因是业务与IT以及业务与业务之间缺乏统一的语言,以及基于统一数据语言的数据搜索和数据追溯能力,即企业统一元数据管理能力。

02 元数据是什么?

何为元数据?

元数据最常见的定义是“关于数据的数据”,非常简单却也不容易理解(哈哈,只能说懂的都懂),所以简单举个栗子:

元数据就是数据的字典或者说明书,比如公司个人档案管理系统数据库中的“180”这一数值单独看我们并不知道是什么意思,但是如果我们赋予了它所属对象“张三”,描述内容“身高”,计量单位“厘米”等信息之后,我们就明白这条数值代表的含义是“张三身高180cm”,则所属对象“张三”,描述内容“身高”,计量单位“厘米”就是180的元数据信息。

元数据分类

元数据贯穿数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、大数据平台元数据、应用服务层元数据等。根据元数据用途及针对使用角色的不同,通常我们把元数据分为3大类:业务元数据、技术元数据和操作元数据(注:根据DAMA正宗元数据分类没有管理元数据一说)。

业务元数据主要是对数据中业务语义的描述,包括业务规则、业务术语、统计口径、信息分类等,是用户访问数据时了解业务含义的途径。

技术元数据主要用来描述数据的技术细节和处理规则,包括比如库表结构、ETL规则等,是技术人员进行数据开发时使用的数据信息。

操作元数据主要描述了数据处理和访问的细节,包括访问记录、调度异常处理等。

03 元数据有什么用?

地图指引,自助使用

通过元数据采集对企业数据资源进行全面梳理,实现企业隐性数据显性化,并提供良好的元数据查询管理视图,降低“找数据”的沟通成本,可使业务人员独立准确地定位和使用数据。

统一语言,高效沟通

通过元数据管理统一数据业务和技术语言,可以有效帮助技术人员和业务人员管理和使用数据,消除数据歧义,提升工作效率。

追根溯源,精准定位

通过元数据血缘分析,快速定位数据来源和加工处理过程。当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,帮助数据分析人员精准定位数据问题,减少分析的时间和难度。

流向追踪,迅速响应

通过元数据影响分析可以对数据流向进行追踪,当对系统进行升级改造时可以分析依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,并及时进行相应调整,避免问题的发生。

04 元数据管理平台建设

元数据管理通过对各类数据资源元数据信息的自动、手动采集,进行元数据信息的统一维护管理,并支持对元数据的查询以及相关血缘分析、影响分析和数据地图等元数据分析能力,同时通过统一的元数据访问接口进行元数据访问控制,从而更加高效、便捷的使用数据资产。

元数据获取

元数据获取是指从数据平台、业务数据库、报表工具等采集和解析数据源元数据、数据处理加工过程元数据、数据仓库元数据、数据应用层元数据的过程,包括自动获取和手工获取两种方式。其中,自动获取提供多种数据源的采集适配器,根据定时调度任务对元数据信息进行定时采集,手动获取是对自动获取元数据的补充。

同时,元数据采集管理对采集器状态、数据源参数、采集任务进行配置和维护,并提供针对采集任务的监控告警能力,及时跟踪采集任务执行情况。

元数据存储

元数据存储层定义了元数据存储所遵循的元模型,规范从获取层得到的各类元数据的属性要求和存储格式要求,包括业务元数据、技术元数据和操作元数据。为支持各种元数据,以及元数据之间关系的存储,元数据存储需要灵活、可扩展的架构支撑,另外,能够实时更新存储也是很重要的一点。

元数据变更管理

通过元数据变更管理能掌握元数据的变更历史轨迹,实现对元数据变更有效监控,当上游系统的数据模型发生变更时,给下游系统提供预警,实现对变更的协同处理,有效降低运维风险。

元数据版本管理

可以对元数据的关键变更进行版本发布,当系统检测到元数据发生变更后,用户可以在当前元数据的基础上再发布一个版本,实现关键元数据变更的管理。

元数据维护

提供对元数据的增加、删除和修改等基本操作,并维护业务元数据分类、业务标签等业务元数据信息,同时建立业务标签与技术元数据的关联,实现业务元数据与技术元数据的统一管理。

元数据查询

元数据查询是指对元数据库中的元数据基本信息进行查询的功能,元数据管理平台提供树形方式来统一展示元数据信息,层级结构清晰,用户可以直接通过目录树进行元数据信息检索,同时提供自定义检索条件进行查询。

元模型管理

元模型管理需符合 MOF 规范,支持XMI格式的元模型导入和导出,内置各类常见元模型,并支持用户自定义扩展,以满足客户化元数据的需求。元模型管理对元模型的基本信息、属性、父子关系、依赖关系、组合关系的增删改查操作,同时通过元模型发布功能,将元模型的设计和运用隔离开,元模型只有在发布之后才会生效,使用户在设计完成发布之前,不会影响到元数据的使用。

数据地图

对数据的流转分布关系进行可视化展现,通过不同层次的图形展现粒度控制,满足业务使用、数据管理、开发运维不同应用场景的图形查询和辅助分析需求。

数据血缘分析

血缘分析是建立在元数据整合的基础上,记录数据治理过程中的血缘关系,基于这些血缘关系信息,可以往回追溯其数据处理过程,并通过图形化的方式展示数据从哪里来,经历了哪些加工。数据血缘分析可以提高数据应用的可信度,为数据质量问题的追溯提供了技术上的保障。

关联度分析

关联度分析从关系数量的角度对指定数据进行分析,明确该数据和其它数据的关系,以及它们的关系是怎样建立的。关联度分析体现该数据在系统中依赖程度的高低,从一定的角度可以反映出该数据的重要程度。

影响分析

影响分析帮助用户迅速了解分析对象的下游数据信息,快速掌握元数据变更可能造成的影响,以便更有效的评估变化该元数据带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用。

元数据对比分析

可以对同类型元数据之间属性值的差异进行对比分析,方便用户识别相似元数据之间的存在的微小差距。

冷热度分析

对数据的使用情况进行分析,明确哪些数据是企业常用数据,哪些数据属于僵死数据,让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据。

统一元数据接口服务

建立元数据查询、访问、分析的统一接口规范,通过统一元数据服务接口对外提供元数据服务。

05 元数据管理实施过程

元数据管理的实施步骤分为以下四个阶段:

规划设计阶段

在规划设计阶段主要是对企业元数据管理驱动力、存在的问题达成内部共识,制定企业元数据管理目标、架构和实施规划。

业务分析阶段

通过收集企业元数据管理需求,明确元数据管理环境、元数据管理范围和优先级,建立元数据标准,制定相关元模型。

实施交付阶段

搭建元数据管理平台,从业务系统、数据平台等数据源获取元数据,对元数据进行转换写入到元数据存储库中,并将元数据存储库中的元数据通过统一元数据服务接口分发到最终用户和其它需要使用元数据的应用或工具中。

运维管理阶段

对元数据的日常运维管理是保证元数据持续优化的基础,因此需要建立元数据管理相关组织、制度、流程,对元数据的增加、删除、修改等操作进行管理,实现对元数据全生命周期管理,并通过元数据运营分析确保元数据完整、准确。

03 结语

元数据管理是企业数据治理的重要抓手,做好元数据管理就可以解决数据找不到、读不懂、不可信的问题,通过元数据管理可以让数据使用者了解企业都有什么数据,分布在哪里,数据的业务含义、口径、颗粒度,如何获取需要的数据,并在数据使用过程中快速进行问题定位分析,真正实现数据的可见、可懂、可用。

微信公众号“金子说数据”后台回复“元数据管理”获取更多元数据管理相关详细学习资料!

金子说数据

聊聊数据技术,谈谈数据业务

7篇原创内容

公众号


推荐阅读
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • 如何撰写PHP电商项目的实战经验? ... [详细]
  • 为何Serverless将成为未来十年的主导技术领域?
    为何Serverless将成为未来十年的主导技术领域? ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得
    TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]
  • 揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节
    揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节 ... [详细]
  • 如何在Oracle ASM_Diskgroup中重命名现有磁盘
    如何在Oracle ASM_Diskgroup中重命名现有磁盘 ... [详细]
  • 从无到有,构建个人专属的操作系统解决方案
    操作系统(OS)被誉为程序员的三大浪漫之一,常被比喻为计算机的灵魂、大脑、内核和基石,其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案,涵盖从需求分析到系统设计、开发与测试的全过程,帮助读者深入理解操作系统的本质与实现方法。 ... [详细]
  • Node.js 配置文件管理方法详解与最佳实践
    本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践,涵盖常见的配置文件格式及其优缺点,并提供了多种实用技巧和示例代码,帮助开发者高效地管理和维护项目配置,具有较高的参考价值。 ... [详细]
  • 如何在Mac上构建高效的本地服务器环境
    在Mac上构建高效的本地服务器环境,首先需要了解基本步骤:1. 配置目录基础;2. 启动Apache服务;3. 添加自定义文档至本地服务器;4. 查看自定义效果。此外,还可以通过手机或其他电脑访问本机服务器,以确保跨设备的兼容性和调试效果。Mac系统自带的Apache服务为本地开发提供了便捷的工具,本文将详细介绍每个步骤的具体操作方法。 ... [详细]
  • 通过 NuGet 获取最新版本的 Rafy 框架及其详细文档
    为了帮助开发者更便捷地使用Rafy领域实体框架,我们已将最新版的Rafy框架程序集上传至nuget.org,并同步发布了最新版本的Rafy SDK至Visual Studio。此外,我们还提供了详尽的文档和示例,以确保开发者能够快速上手并充分利用该框架的强大功能。 ... [详细]
  • 【Linux】CentOS 7 远程连接指南:高效安全的远程管理方法
    在 CentOS 7 中实现高效且安全的远程管理,本文详细介绍了如何检查和安装配置 OpenSSH。首先,通过 `yum list installed` 命令检查系统是否已安装 OpenSSH,若未安装,则使用 `yum install openssh-server` 进行安装。随后,配置 SSH 服务以确保其安全性和稳定性,包括修改默认端口、禁用 root 登录等关键步骤。此外,还提供了常见问题的解决方案,帮助用户顺利进行远程连接。 ... [详细]
  • 为了向用户提供虚拟应用程序,通常会在基础架构中部署StoreFront或Web Interface。为了确保安全的远程访问,通常需要在DMZ中配置Secure Gateway或Access Gateway。本文详细对比了这两种界面工具的功能特性,包括用户管理、安全性、性能优化等方面,为企业选择合适的解决方案提供了全面的参考。 ... [详细]
  • PyQt5 QTextEdit:深入解析Python中多功能GUI库的应用与实现
    本文详细探讨了 PyQt5 中 QTextEdit 组件在 Python 多功能 GUI 库中的应用与实现。PyQt5 是 Qt 框架的 Python 绑定,提供了超过 620 个类和 6000 个函数及方法,广泛应用于跨平台应用程序开发。QTextEdit 作为其中的重要组件,支持丰富的文本编辑功能,如富文本格式、文本高亮和自定义样式等。PyQt5 的流行性不仅在于其强大的功能,还在于其易用性和灵活性,使其成为开发复杂用户界面的理想选择。 ... [详细]
  • 【VMware vSAN 6.6】1.1.企业级超融合基础设施存储方案:提供全面的软硬件集成支持
    ### 摘要VMware vSAN 6.6 提供了一种全面的企业级超融合基础设施(HCI)存储解决方案,支持广泛的软硬件集成。该方案通过在 vSphere Hypervisor 中内置存储功能,实现了高效的数据管理和资源利用。vSAN 6.6 的架构设计包括带有本地存储的服务器,以及优化的存储控制器虚拟系统,有效克服了传统存储系统的局限性,为企业提供了灵活、可靠的存储环境。 ... [详细]
author-avatar
漫天星雨2000
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有